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Streszczenie 



W artykule przedstawiono efektywny (dynamiczny) algorytm wyzna- 
czajacy miare^ podobienstwa wyrazow za pomocq uogolnionej metody 
n-gramow (miary Niewiadomskiego 2 ). Uzasadniono takze poprawnosc 
dzialania algorytmu i oszacowano jego zlozonosc obliczeniowq,. 



Abstract 



This article presents effective (dynamic) algorithm for solving a pro- 
blem of counting the number of substrings of given string which are also 
substrings of second string. Presented algorithm can be used for example 
for quick calculation of strings similarity measure using generalized 71- 
gram method (Niewiadomski measure [2]), which are shown. Correctness 
and complexity analyses are included. 

1 Oznaczenia 

Jesli przez w, s b§d^ oznaczone slowa, to: 

• \w\ - dlugosc slowa w (liczba liter), 

• litery w slowie w maj% indeksy od do \w\ — 1, 

• iu[a..&] (dla a, b S N) - podslowo slowa w od litery a-tej do 6-tej (wlacznie) 
lub slowo puste gdy a > 6, 

• w[a..b) (dla a, b S N) - podslowo w[a..b — 1] slowa w, 

• w[a..) (dla a € N) - podslowo w[a..|a|) (sufiks slowa w rozpoczynajacy si§ 
od a-tej litery), 

• w[a] (dla a £ N) a-ta litera slowa w (w[a\ = w[a..a\), 

• ws - konkatenacja slow wis, tj. slowo dlugosci \w\ + \s\, takie, ze 
(ws)[0..|ui|) = w i (uis)[|u>|..) = s; 

• zachodzi w — w[0..\w\ — 1] = w[0..|w|) = w[0..) = w[0]w[l] . . . w[\w\ — 1]. 
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2 Metoda n-gramow 



Metody n-gramow (l-gramow czyli unigramow, 2-gramow czyli bigramow, 3- 
gramow czyli trigramow, itd.) sg, popularnymi technikami analizy tekstow o sze- 
rokich mozliwosciach zastosowania, por. np. [H El [H] ■ 

Miary n-gramow bazujq, na zliczaniu n-literowych slow (zwanych n-gramami) 
bedacych rownoczesnie podslowami obu porownywanych slow. Im wi^cej wspol- 
nych n-gramow maja^ porownywane slowa tym bardziej s^, do siebie podobnc. 
Wi§cej szczegulow mozna znalezc w artykule [T] . 



3 Uogolniona miara n-gramow 

Uogolnienie miar n-gramow polegajace na zliczaniu podslow dowolnej dlugosci 
zaproponowal A. Niewiadomski w rozprawie 

Podobienstwo slow w\ i w 2 wg. uogolnionej miary n-gramow wynosi 
min(sim(wi, W2), sim(w2, wi)), przy czym funkcja sim zdcfiniowana jest nast§- 
pujaco: 

^ min(|ti)i|,|ti) 2 |) |u)i|— i 

sim(w u w 2 ) = 2 h &fi W 

i=l j=Q 

gdzie: 

• N — max(|iui|, \w 2 \) 

I 1, gdy wi\j..j + i) jest podslowem w 2 

• h(i,j) = < 

10, w przeciwnym razie 

Funkcja sim liczy iloraz: 

• liczbe? (niekoniecznie roznych) podslow w\ bedacych rownoczesnie podslo- 
wami w 2l przez: 

• liczbe; wszystkich (niekoniecznie roznych) podslow dluzszego ze slow: wi, 
w 2 (jest ich ^V). 

Funkcja sim nie jest symetryczna. 

Miara Niewiadomskiego moze bye zastosowana do porownywania dowolnych 
ciqgow liter, zarowno calych dokumentow tekstowych, calych zdan, fraz lub po- 
jedynczych wyrazow. Jej przydatnosc w praktyce potwierdzil m.in. J. Adamczak 
w pracy [3] . Wykorzystal on j^ w budowie systemu ekspertowego wspomagajace- 
go diagnostyke; medyczn^,. Zadaniem jego opartego o logikc? rozmytq, regulowego 
systemu bylo porownanie (sklasyfikowanie) nowego, opisanego stanem pacjenta 
przypadku z zawartymi w bazie zdiagnozowanymi przypadkami oraz podanie 
zbioru mozliwych diagnoz. 
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4 Algorytm naiwny i jego zlozonosc 

Oznaczmy: a = \w±\, b = \w2\- Algorytm naiwmFFl wvznaczaiacv wartosc funkcii 
sim wprost ze wzoruQ]wykona (w pesymistycznym przypadku) nastejmjaca^ ilosc 
porownan symboli: 

min(a.o) 

(a-i+l)(b-i + l)i 

i=l 

Ze wzgledu na symetrycznosc powyzszego wzoru, mozemy, bez straty ogolnosci 
obliczen zalozyc, ze min(a, b) = a, mamy wtedy: 

a—1 a—1 



^2(a - i)(b - + 1) = ^(a6 - ai - bi + i 2 )(i + 1) = 

i=0 i=0 

a—1 a—1 a—1 

abJ2( l + 1 )-(a + b)J2 i ( i + 1 ) + Yl **(* + : ) = 

i=0 i=0 i=0 

a a a—1 a—1 

ab * ~ (a + b) ~ + 2 j3 + X! ; 



i=l i=l i=0 i=0 



abaia + 1) ,nV^.? , .(a — l)a. 2 2 

— ^ — - - (« + b) }2 1 + (« + b ) z2 1 + ( 2 ) + 1 a = 

i—1 i—1 i—1 

a 3 b + a 2 b , , . afa + l)(2a + 1) (a + b)a(a + l) ,a 2 — a. 9 
^2^- (a + 5+1)J 6 " + " 2 " + ( ^ } " a = 

^(2a 3 & + 6a 2 & - a 4 - 10a 3 - 11a 2 - 8a6 - 2a) = 6(a 3 o) 

Stad, zlozonosc czasowa algorytmu naiwnego wynosi 
©(|xt?i | |iU2 1 min 2 (|wi|, | KJ2 1 ) ) ■ Jego zlozonosc pamieciowa to 6(1)- 

Algorytm naiwny mozna poprawic uzywajac w jego konstrukcji algorytmu 
wyszukujacego wzorca w czasie liniowym (np. Knutha-Morrisa-Pratta). Otrzy- 
mamy wtedy algorytm o zlozonosci czasowej 0(|?«i||w2| min(|u>i|, |w2|))- 

5 Algorytm efektywny i jego zlozonosc 

Oznaczmy: sc(wi,W2) — ^™^™(I U ' 1 M U ' 2 I) J^^J 1 h(i,j) (zachodzi: sim(tyi, 11)2) — 
Ni 2 +N sc(wi, W2))- sc(wi,W2) to ilosc (niekoniecznie roznych) podslow wi bqdq.- 
cych rownoczesnie podslowami W2- 

Lemat 1 (o funkcji h). Jesli h(i,j) — 1 to dla dowolnego y < i: h(y,j) = 1. 

Dowod. Jesli h(i,j) — 1 to w\[j..j + i) jest podslowem W2, tzn. istnieje w W2 
pozycja x taka, ze w\\j..j + i) — W2[x..x+i), stad zas w\[j..j + i — 1) = W2[x..x + 
1 - 1) (czyli h(i-l, j)=l), wi\j..j +i - 2) = w 2 [x..x + i - 2) (czyli h(i-2, j)=l), 
itd. □ 

Z lematu [T] wynika, ze dla dowolnego j istnieje i G {0, 1, . . .}, takie, ze: 



^prawdzajacy (dla kolejnych dlugosci i = 1,2, . . . , min(a, b)) kolejno wszystkie podslowa 
i-literowe slowa u>i (jest ich a—i + 1) czy sa^ podslowami 1112- Jest b — i + l i-literowych podslow 
W2- Porownanie dwoch slow dlugosci i moze (w razie rownosci) wymagac i porownan symboli. 

2 uzyty m.in. w implementacji systemu ekspertowego przez J. Adamczaka 3 
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• h(y,j) = 1 dla dowolnego y < i, 

• h(y,j) = dla dowolnego y > i. 

Inaczej mowiac, dla danego indeksu j poczatku podslowa w\ mozna znalezc 
najwieksza^ jego dlugosci i, tak% ze: 

• wi[j..j],wi[j..j + 1], . . .,wi\j..j + i) sa, podslowami w 2 , 

• w\[j..j + i], w\[j..j + i + 1], . . . , toi[j..|tOi|) nie podslowami W2- 

Oznaczmy ta, liczb§ symbolem maxlen ( to i, 102,7). 
Mozna policzyc liczbe; sc(tOi, W2) jako sum§: 

|*0l|— 1 

sc(toi, 102) = maxlen(toi, 102, j) (2) 

j=o 

Rozwazmy kolejne sufiksy slowa w\\ p\ — wi[\wi\ — 1--)jP2 = tf 1 | — 
2..), . . . ,pi = wi[\wi\ — i..). Zachodzi \pi\ = i. 

Niech simlen b^dzie funkcja^ taka^ ze simlen(tOi, u>2, n, I) — x wtedy i tylko 
wtedy, gdy: p n [0..x) = W2[l--l + x) oraz (w przypadku gdy x ^ n) p n [x] ^ 
w 2 [l + x]. 

Czyli simlen(wi, 102, n, I) = x gdy slowa p n i W2[l--) maja^ dokladnie x pierw- 
szych takich samych liter (tj. ich najdluzszy wspolny prefiks ma dlugosci a;). 
Przyjmijmy dodatkowo simlen(wi, w 2 , 0, 1) = dla dowolnego I, 

Lemat 2. Dla n > 0: 

• sim\en(wi,W2,n,l) = gdy p n [0] ^ w 2 [l] 

• simlen(wi, W2, n, I) = 1 + simlcn(u>i, W2, n — 1,1 + 1) gdy p n [0] — W2[l] 
Dowod. Pierwsza rownosc wynika wprost z definicji simlen. Druga takze z fak- 

tOW, ze p n = p n [0]Pn-l i W 2 [l..) = W 2 [l]w 2 [l + 1..)- □ 

Oznaczmy: 

simlenmax(wi, W2, n) — max(simlen(wi, W2, n, 0), . . . , simlen(toi, u>2, n, W2I — 1)) 

(3) 

Latwo zauwazyc, ze simlenmax(toi , u>2, n) = x oznacza, ze najdluzszy prefiks 
slowa p n bedacy podslowem W2 jest dlugosci x, tj. ze p n [0..x — 1] (= toi[|uii| — 
n..|wi| — n + x)) jest podslowem W2 i rownoczesnie (gdy x ^ \p n \) nie jest nim 
p n [0..x] (= - n..|tOi| -n + x]). 

Jesli wi§c simlenmax(wi , W2 , n) — x to h(x, \uii\ — n) = 1 i rownoczesnie 
h(x + 1, 1 toi| - n) = 0. 

Z lcmatu[T]takze: h(x— 1, |u>i| — n) = 1, h(x — 2, \w\\ — n) = 1, . . . , h(l, \wi\ — 
n) = 1. 

Zachodzi wiec simlenmax(toi , W2 , n) = maxlen(toi, W2, \wi\ — n) i (na pod- 
stawie [5]) : 

Kl-i 

sc(toi,t02)= simlenmax(toi, tf2, j) (4) 

3=0 
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{funkcja sc(u>i, W2)} 

{tablica liczb simlen ma dlugosc \w 2 \ + 1} 
for b = to 1 102 1 do 

simlen[b] <— 
end for 
result <— 
alast <— \w\ I 
while alast ^ do 

alast <— alast — 1 

max <— 

s <- 

for b = to W2I — 1 do 
if 102(0] = wi[alast] then 

sz?77ien[s] <— simlen[s + 1] + 1 
if simlen[s] > max then 

max <— szm^en[s] 
end if 
else 

simlen[s] <— 
end if 
s <— s + 1 
end for 

result <— result + max 
end while 
return result 

Algorytm 1: dynamiczny algorytm wyznaczajacy wartosc sc(ioi, W2) 
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N <— max(|wi|, W2I) 

return 2.0 * min(sc(wi, W2), sc(u>2, w\))/(N * N + N) 

Algorytm 2: algorytm wyznaczajacy miare; podobienstwa slow wi i W2 uogol- 
niona^ metod% n-gramow, tj. liczacy wartosc min(sim(u>i, W2), sim(w2, w±)) 

Algorytm [1] wyznacza wartosc sc jako sume; simlenmax(u;i , W2, n) clla kolej- 
nych n = 1, 2, ... , \w\\ (zgodnie z 0]). Czyni to wykonujac \u)2\ porownan (dla 
kazdego n) korzystajac z programowania dynamicznego i zaleznosci[U Przy ob- 
liczaniu simlen(u;i, W2, n, ...) korzysta z 1U2 wczesniej zapami^tanych wartosci 
simlen(wi, W2, n — 1, ...), co wymaga uzycia ©(|?JJ2 1 ) dodatkowej pamieci. 

Algorytmy[T]oraz[2]niaj^, zlozonosc czasowa^ 0(|w>i||u;2|) (wykonuja^ one od- 
powiednio 1 1 i 2|wi | |w2 1 porownan symboli). Pami^ciowa zlozonosc algo- 
rytmudto 6(|iui| + \w 2 \). 
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